总结|“CCF语音对话与听觉专业组走进企业系列活动”第三期之“走进滴滴”圆满收官
2020年7月18日,由中国计算机学会(CCF)主办,CCF语音对话与听觉专业组和滴滴出行承办、智源社区支持的“CCF语音对话与听觉专业组走进企业系列活动”第三期之“走进滴滴”通过线上方式成功举办。本次研讨会邀请滴滴四位专家介绍滴滴语音及对话领域的最新成果。本次研讨会由天津大学王龙标教授主持,包含4个学术报告,现场互动热烈,B站参看人数超过11000人。会议视频资料经过讲者同意后将上传至CCF数字图书馆,供广大学者进一步参考。
中国计算机学会(CCF)语音对话与听觉专业组委员、天津大学王龙标教授主持
滴滴首席算法工程师、语音语义技术部总监李先刚博士作报告
李先刚博士作了题为《滴滴语音技术综合解读》的学术报告,介绍了滴滴如何利用云技术在工业界和产业界充分发挥价值。此次报告首先从场景、目标、定位、AI 语言能力几个角度向大家介绍了滴滴语音的整体布局。然后通过demo介绍了滴滴语音典型应用场景,包括智能客服、语音交互、滴滴夸以及智能车载语音交互的解决方案。
滴滴AI Labs高级专家研究员、语音研究实验室负责人宋辉博士作报告
宋辉博士作了题为《基于深度学习的语音分离技术》的学术报告,此次报告首先介绍了基于深度学习的语音分离技术的基本框架和主流技术路线,其次梳理了频域和时域两类方法在单通道场景下的发展脉络和典型技术,及其在语音分离任务和目标说话人提取任务上的应用,并扩展到多通道场景,介绍分离技术与频域和时域波束形成的不同结合方式,最后总结了些仍需解决的难点和未来的发展方向。
滴滴AI Labs对话处理及交互资深算法工程师徐海洋作报告
徐海洋作了题为《预训练和多模态在滴滴语义理解的应用》的学术报告,介绍到预训练(Pretraining)语言模型和多模态(Multimodal)是近两年是学术界和工业界的研究热点,通过利用海量的无标注数据进行自训练和融合多模态的数据提高模型的性能。此次报告主要介绍了预训练和多模态在滴滴语音语义理解和交互的研究和应用,以及开源语音语义项目DELTA(https://github.com/didi/delta)。
滴滴AI Labs高级专家算法工程师,语音识别与合成技术负责人邹伟作报告
邹伟作了题为《大规模语音无监督预训练技术进展》的学术报告,介绍到语音识别技术现在已广泛应用在各领域的工业产品,但搭建高质量的语音识别系统通常需要花费巨大的投入来获取足够的标注数据。通过各已有的在线工业系统,可以轻松的获取大量的未标注的语音数据。无论是在学术界还是在工业界,探索如何有效的使用这些未标注数据来提升语音识别系统精度,都是十分有价值的。此次报告介绍了滴滴在语音无监督预训练的工作,主要介绍语音无监督预训练算法MPC、大规模语音无监督预训练技术在语音识别产品中的应用等。
在线观众破万
最后,王龙标教授表示此次线上活动完满结束,表达了对演讲嘉宾、智源社区以及工作组人员的衷心感谢。
李雷
滴滴作为打车软件,为什么需要语音?
滴滴语音语义团队是滴滴集团的语音和NLP技术的中台技术团队,支撑集团在相关场景上的几乎所有的业务需求,包括在智能客服,车载语音交互助手、安全场景识别与分析、信息安全平台等。
李先刚
李雷
对于明星音色合成,滴滴在实现时,对数据量的要求有多大呢?
我们针对不同规模的数据库都建立了对应的解决方案:几十句话,近千句话,数万句话。
李先刚
李雷
落地的服务是流式识别吗?
语音交互场景主要是流式的,其他主要是非流式的。
李先刚
李雷
明星音有用voice cloning吗?
有些场景下,明星提供的语料非常少的时候,我们会用到。滴滴目前面临的主要的明星音场景是这样子的:能够得到近千句话的录音数据,所以我们还是为对应明星建立的语音合成引擎,这里并未使用vc。
李先刚
李雷
滴滴的语音分离应用场景是去噪么?
滴滴语音分离主要应用在降噪、回声消除、其他干扰声音消除几个方面,其实就是车载场景下的各种干扰因素。
李雷
滴滴的AEC模块也替换成神经网络了吗?
目前我们AEC的线性回声消除部分还是沿用传统的自适应滤波技术,残余回声抑制部分用的是神经网络。
李雷
多通道分离对于ad-hoc麦克风,因为无法利用IPD这种信息,除了FasNet还有什么好的方法吗?
FasNet + TAC可以缓解自组织阵列的一些不确定性。另外也可以尝试每一路用一个单通道pre-separation。
宋辉
李雷
对抗训练是在文本上做扰动么,一般怎么做呢?
主要是embedding加扰动,可以参考goodfellow的Paper。
徐海洋
李雷
Bert应用时有优化吗,模型大小,速度等?
对于pretraining,infer的都有相应的优化。
徐海洋
李雷
语音加文本的多模态论文方法上线了吗?
是的,已经上线,现应用到了智能客服等方面。
徐海洋
李雷
请问在TTS中,滴滴对收集到的大量未标注数据是否有尝试使用?尝试了哪些方法?效果怎么样?
目前主要是一些比较简单的应用,比如在客服场景,对每个客服大量的未标注的语音数据,使用ASR得到的弱监督标签进行学习,打造对应的系统。
邹伟
李雷
无监督预训练作为feature extraction,滴滴有进行尝试吗?
有的,语音特征提取的无监督训练是一种有效的Feature-based预训练方法,滴滴当前已经有了一些联合Feature-based 预训练和Fine-tuning预训练的结果。整体精度会有进一步的提升。
邹伟
李雷
视觉领域Facebook和Google都有实验证明大规模数据下预训练不如直接训练,语音中的实验看起来预训练一直有提升,这个您怎么看?
这个表现不太一样的原因,可以从这个角度来解答一下:语音和语言任务具有非常强的上下文相关性,在具体的下游语音或语言任务时,需要依赖丰富有效的上下文的信息或者表示。而语音和语言的无监督预训练恰恰是能通过大量的无监督数据,学习到语音/文字信息之间的上下文关系和表示。
邹伟
观看活动视频在线回放请点击下方链接哦~
https://www.bilibili.com/video/BV1jt4y1X7sr/
“CCF语音对话与听觉专业组走进企业系列活动”后续还有11期,欢迎关注!
《后续活动一览表》
时间 | 活动 | 主持人 | 参加方式 |
2020年7月25日9:30-11:30 | CCF语音对话与听觉专业组走进“小米” | 吴志勇 清华大学副教授 | 详见后续通告 |
2020年8月1日9:30-11:30 | CCF语音对话与听觉专业组走进“得意音通” | 李军锋 中国科学院声学所研究员 | 详见后续通告 |
2020年8月8日9:30-11:30 | CCF语音对话与听觉专业组走进“搜狗” | 谢磊 西北工业大学教授 | 详见后续通告 |
2020年8月15日9:30-11:30 | CCF语音对话与听觉专业组走进“讯飞” | 凌震华 中国科学技术大学副教授 | 详见后续通告 |
2020年8月22日9:30-11:30 | CCF语音对话与听觉专业组走进“中移动研究院” | 欧智坚 清华大学副研究员 | 详见后续通告 |
2020年8月29日9:30-11:30 | CCF语音对话与听觉专业组走进“联想” | 李明 昆山杜克大学 | 详见后续通告 |
2020年9月5日9:30-11:30 | CCF语音对话与听觉专业组走进“腾讯” | 钱彦旻 上海交通大学副教授 | 详见后续通告 |
2020年9月12日9:30-11:30 | CCF语音对话与听觉专业组走进“思必驰” | 俞凯 上海交通大学教授 | 详见后续通告 |
2020年9月19日9:30-11:30 | CCF语音对话与听觉专业组走进“中科信利” | 李军锋 中国科学院声学所研究员 | 详见后续通告 |
2020年10月10日9:30-11:30 | CCF语音对话与听觉专业组走进“数据堂” | 王东 清华大学副研究员 | 详见后续通告 |
2020年10月17日9:30-11:30 | CCF语音对话与听觉专业组走进“优必选” | 邹月娴 北京大学深圳研究院教授 | 详见后续通告 |
扫描二维码
关注我们